Multimodal Machine Translation (MMT) focuses on enhancing text-only translation with visual features, which has attracted considerable attention from both natural language processing and computer vision communities. Recent advances still struggle to train a separate model for each language pair, which is costly and unaffordable when the number of languages increases in the real world. In other words, the multilingual multimodal machine translation (Multilingual MMT) task has not been investigated, which aims to handle the aforementioned issues by providing a shared semantic space for multiple languages. Besides, the image modality has no language boundaries, which is superior to bridging the semantic gap between languages. To this end, we first propose the Multilingual MMT task by establishing two new Multilingual MMT benchmark datasets covering seven languages. Then, an effective baseline LVP-M3 using visual prompts is proposed to support translations between different languages, which includes three stages (token encoding, language-aware visual prompt generation, and language translation). Extensive experimental results on our constructed benchmark datasets demonstrate the effectiveness of LVP-M3 method for Multilingual MMT.
translated by 谷歌翻译
完全监督的对数异常检测方法需要大量标记的数据才能实现有希望的性能。因此,如何减轻注释大量未标记的日志数据的沉重负担受到了很多关注。最近,已经提出了许多半监督对数异常检测方法,以借助于标记的正常数据解析的模板来降低注释成本。但是,这些方法通常独立考虑每个关键字,这无视日志事件中关键字之间的相关性以及日志序列之间的上下文关系。在本文中,我们提出了一个新型的弱监督的对数异常检测框架,名为Loglg,以探索序列中关键字之间的语义连接。具体而言,我们设计了一个迭代过程,首先提取未标记的日志的关键字以在每次迭代中构造日志事件图。然后,我们构建一个子记录注释,以更改为未标记的日志序列生成伪标签的目的,以注释相应的log-subgraphs。为了改善注释质量,我们采取了自我监督的任务来预先培训子图注释。之后,使用子图注释者生成的伪标签训练对数异常检测模型。在分类结果的条件下,我们从分类的日志序列重新提取关键字,并为下一个迭代更新日志事件图。五个基准的实验验证了LogLG在未标记的日志数据上检测异常的有效性,并证明与现有的半监督方法相比,Loglg作为最新的弱监督方法,可以取得重大改进。
translated by 谷歌翻译
我们提出了一个基于一般学习的框架,用于解决非平滑和非凸图像重建问题。我们将正则函数建模为$ l_ {2,1} $ norm的组成,并将平滑但非convex功能映射参数化为深卷积神经网络。我们通过利用Nesterov的平滑技术和残留学习的概念来开发一种可证明的趋同的下降型算法来解决非平滑非概念最小化问题,并学习网络参数,以使算法的输出与培训数据中的参考匹配。我们的方法用途广泛,因为人们可以将各种现代网络结构用于正规化,而所得网络继承了算法的保证收敛性。我们还表明,所提出的网络是参数有效的,其性能与实践中各种图像重建问题中的最新方法相比有利。
translated by 谷歌翻译
Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
translated by 谷歌翻译
In dense neighborhoods, there are often dozens of homes in close proximity. This can either be a tight city-block with many single-family homes (SFHs), or a multiple dwelling units (MDU) complex (such as a big apartment building or condominium). Each home in such a neighborhood (either a SFH or a single unit in a MDU complex) has its own Wi-Fi access point (AP). Because there are few (typically 2 or 3) non-overlapping radio channels for Wi-Fi, neighboring homes may find themselves sharing a channel and competing over airtime, which may cause bad experience of slow internet (long latency, buffering while streaming movies, etc.). Wi-Fi optimization over all the APs in a dense neighborhood is highly desired to provide the best user experience. We present a method for Wi-Fi channel selection in a centralized way for all the APs in a dense neighborhood. We describe how to use recent observations to estimate the potential-pain matrix - for each pair of APs, how much Wi-Fi-pain would they cause each other if they were on the same channel. We formulate an optimization problem - finding a channel allocation (which channel each home should use) that minimizes the total Wi-Fi-pain in the neighborhood. We design an optimization algorithm that uses gradient descent over a neural network to solve the optimization problem. We describe initial results from offline experiments comparing our optimization solver to an off-the-shelf mixed-integer-programming solver. In our experiments we show that the off-the-shelf solver manages to find a better (lower total pain) solution on the train data (from the recent days), but our neural-network solver generalizes better - it finds a solution that achieves lower total pain for the test data (tomorrow).
translated by 谷歌翻译
语言之间的大多数翻译任务都属于无法使用的零资源翻译问题。与两种通用枢轴翻译相比,多语言神经机器翻译(MNMT)可以使用所有语言的共享语义空间进行一通翻译,但通常表现不佳的基于枢轴的方法。在本文中,我们提出了一种新颖的方法,称为NMT(UM4)的统一多语言多语言多种教师模型。我们的方法统一了来源教师,目标老师和枢轴教师模型,以指导零资源翻译的学生模型。来源老师和目标教师迫使学生学习直接来源,以通过源头和目标方面的蒸馏知识进行目标翻译。枢轴教师模型进一步利用单语语料库来增强学生模型。实验结果表明,我们的72个方向模型在WMT基准测试上明显优于先前的方法。
translated by 谷歌翻译
日志异常检测是IT操作(AIOPs)的人工智能领域的关键组成部分。考虑到变量域的日志数据,Retring为未知域的整个网络效率低于实际工业场景,特别是对于低资源域。但是,之前的深层模型仅仅集中在同一域中提取日志序列的语义,导致多域日志的概括。因此,我们提出了一种统一的基于变换器的日志异常检测框架(\ OurMethod {}),其包括预先曝光和基于适配器的调谐阶段。我们的模型首先在源域上留下来验证以获取日志数据的共享语义知识。然后,我们通过基于适配器的调谐将预磨模的模型传送到目标域。所提出的方法在包括一个源域和两个目标域的三个公共数据集上进行评估。实验结果表明,我们的简单且有效的方法,具有较少的可训练参数和较低的目标领域的培训成本,在三个基准上实现了最先进的性能。
translated by 谷歌翻译
现有的在线多标签分类工作无法处理在线标签阈值问题,并缺乏对其在线算法的遗憾分析。本文提出了一种用于在线多标签分类的自适应标签阈值算法的新框架,旨在克服现有方法的缺点。我们的框架的关键特征是,何种评分和阈值模型都包含在线多标签分类器的重要组成部分,并纳入一个在线优化问题。此外,为了建立评分和阈值模型之间的关系,导出了一种新的多标签分类损失函数,该丢失函数是多个标签分类器可以区分传入实例的相关标签和无关的程度。基于这种新的框架和损失功能,我们介绍了一阶线性算法和二阶算法,均享受封闭式更新,但依赖于更新多标签分类器的不同技术。证明这两种算法都达到了子线性遗憾。使用Mercer Kernels,我们的一阶算法已经扩展到处理非线性多标签预测任务。实验表明我们的线性和非线性算法的优势,就各种多标签性能指标而言。
translated by 谷歌翻译
对象检测在清洁数据集上取得了有希望的性能,但仍然探讨了如何在对抗性鲁棒性和清洁精度之间实现更好的权衡。对抗性培训是提高稳健性的主流方法,但大多数作品将牺牲清洁精度,以获得比标准训练的坚固性。在本文中,我们提出了统一的解耦特征对准(UDFA),一种新型微调范例,通过完全探索对象检测的自我知识蒸馏和对抗训练之间的组合来实现比现有方法更好的性能。我们首先使用分离的前/后地特征来构建自我知识蒸馏分支,从预磨牙探测器(作为教师)和来自学生探测器的对抗特征表示之间的清洁特征表示之间。然后我们通过将原始分支解耦为自我监督的学习分支和新的自我知识蒸馏分支来探索自我知识蒸馏。通过对Pascal-VOC和MS-Coco基准测试的广泛实验,评估结果表明,UDFA可以超越标准培训和最先进的对抗对象培训方法进行对象检测。例如,与教师探测器相比,我们在GFLV2与RESET-50的方法通过Pascal-Voc上的2.2 AP提高了干净精度;与SOTA对抗性培训方法相比,我们的方法通过1​​.6 AP改善了干净的精度,同时通过0.5 AP改善对抗性鲁棒性。我们的代码将在https://github.com/grispeut/udfa提供。
translated by 谷歌翻译
在商业应用程序中使用基于扬声器验证(SV)的系统时,重要的是客户与他们的性别,年龄或种族有关。在本文中,我们分析了性别和年龄对SV的影响,并在不同性别和年龄组中发现,对于不同性别和年龄组的期望的常见验证率(FRR),不同的性别和年龄组不同。为了优化所有用户的FRR,我们提出了一种关于SV的上下文(例如性别,年龄)自适应阈值框架。这些上下文可以作为许多实际应用程序的先前信息。我们还提出了一个连接的性别/年龄检测模型,以在没有这样的事先信息的情况下进行算法导出的背景。我们通过实验表明我们的上下文 - 自适应阈值化方法在建立更有效的包容性SV系统方面是有效的。具体而言,我们表明我们可以通过使用特定于性别特定阈值对VoxceB1测试设置的所需性别来减少特定性别的FRR。对OGI Kids的语音语料库类似的分析表明,通过使用年龄特定的阈值,我们可以显着减少某些年龄段的FRR,以便远远。
translated by 谷歌翻译